一通銀行客服電話,最難的地方常常不是回答問題。
真正麻煩的是,客戶一邊說卡片不見了,一邊又想起昨天有一筆可疑扣款,接著還問帳戶是不是被限制。這時候第一線服務不是陪聊,而是要照順序核對身分、鎖卡、查交易、判斷哪些資訊可以說、哪些不能說,必要時還得轉真人。
所以這次 OpenAI 把 Gradient Labs 做成案例,真正值得注意的,不是又一個「AI 客服升級」故事,而是一個更直接的問題:AI 有沒有開始能在銀行這種 SOP 很重、風險很高的服務流程裡,穩定把事情做完?
先說結論:公開證據顯示,它開始接近可行了。但這還不是「銀行客服已被 AI 證明可以全面取代」的意思。
真正的分水嶺,不是更會聊天,而是更會照流程做事
SOP,白話說就是標準作業流程:遇到某一類案件時,先做什麼、再做什麼、哪一步必須檢查、哪一步不能跳過,都是先寫好的。銀行之所以難,不是因為句子比較正式,而是因為很多流程只要漏一格、說錯一句、查錯一筆,就可能變成合規問題或客訴事故。
也因此,這類 AI 若想當第一線服務角色,不能只會生成自然語句。它還得能穩定跟著 SOP 走,像一位不該漏步驟的流程型同事,而不是一位口才很好的接待員。
OpenAI 在案例裡點出的三個條件很關鍵:指令遵循能力、低幻覺,以及可靠的 function calling。這裡的 function calling,可以把它理解成「系統操作/工具呼叫」:AI 不只是在對話框裡回話,還要真的去查資料、開流程、觸發某些內部工具。少了這一步,它頂多是個會安撫人的前台;有了這一步,它才有機會碰到真正的服務流程。
Gradient Labs 還特別強調 trajectory accuracy。這個詞聽起來工程味很重,其實白話就是「整段流程走對率」:不是某一句答得漂不漂亮,而是從開頭到結尾,有沒有一路照正確步驟把案件帶到該去的地方。對銀行來說,這差別非常大。因為一段服務流程真正貴的,不是回一句話,而是走錯一步之後,要花多少時間補救。
在 SOP 很重的服務場景裡,會說話從來不是終點;能一路不走錯,才是分水嶺。
為什麼現在才開始像一件可能做成的事
如果你問,為什麼這種敘事不是去年就站得住?答案不是單一模型突然變聰明,而是幾個以前常常不同步的條件,現在開始一起靠攏。
第一個是延遲。Latency,也就是互動延遲,白話講就是回應有沒有快到像正常對話。Gradient Labs 共同創辦人對 OpenAI 表示,GPT-5.4 mini 與 nano 已能做到大約 500 毫秒延遲。對語音互動來說,這很重要。因為銀行服務一旦變成語音流程,如果每一步都像在等網頁轉圈圈,再準也很難讓人相信它能接住焦躁或緊急情境。
第二個是工具呼叫更穩。很多人以為客服自動化的難點是「怎麼讓 AI 更像人」,但在銀行裡,真正卡住的常常是「怎麼讓它穩定去做事」。能不能查帳戶、開補卡流程、標記爭議交易、讀取限制條件,這些才是服務能不能成立的骨架。
第三個是 guardrails,也就是防護欄或合規檢查。你可以把它想成,每一步旁邊都有一位很龜毛的審核員,盯著這個系統有沒有越線。OpenAI 案例提到每次互動會平行跑 15 套以上 guardrail systems;Gradient Labs 自己的銀行案例則說,系統已執行超過 900 萬次 guardrails。這代表關鍵不只是「讓 AI 放出去」,而是「讓 AI 每走一步都被看著」。
第四個是評測方式變了。以前很多示範喜歡看單輪回答漂不漂亮,現在更重要的問題變成:整段流程有沒有走對、被打斷後能不能回到正軌、客戶臨時改口時會不會把案件帶歪。OpenAI 提到,Gradient Labs 初期評測中,GPT-4.1 的 trajectory accuracy 達到 97%,次佳供應商是 88%。這 9 個百分點,在一般聊天展示裡可能只是數字差距,但在高風險流程裡,可能就是「順利結案」和「製造事故」的差別。
它現在做到的,已經不只是 FAQ
如果公開資料只說 AI 幫忙回覆常見問題,這篇其實不值得寫。
真正讓人停下來的是,Gradient Labs 公開案例裡提到的範圍,已經延伸到卡片補發、付款調查、爭議交易、帳戶驗證,以及和詐欺相關的多步驟處理。換句話說,它想接的不是資訊查詢,而是程序型服務流。
根據 Gradient Labs 的官方銀行案例,一家約一千萬用戶規模的歐洲數位銀行導入後,AI agent 在不到一年內處理超過 28 萬段對話、服務超過 50 萬名客戶,並達到 84% CSAT 與 98% QA。這裡的 QA,就是品質稽核分數,可以理解成內部檢查這段服務流程做得是否合規、是否符合標準。
這組數字當然有訊號價值。它至少說明一件事:市場現在談的已不是「能不能做一個很像客服的對話窗」,而是「能不能把原本卡在人工作業佇列裡的部分程序,往前交給 AI 處理」。
但也要把話說完整。這些資料主要來自 OpenAI 與 Gradient Labs 自述,公開內容仍沒有完整揭露錯誤率、人工覆核比例、事故率,也沒有看到完整第三方審計全文。也就是說,這些數字足以支持「可部署性正在上升」,卻還不足以支持「人已經可以被完整拿掉」。
真正麻煩的從來不是回答,而是邊界
銀行服務之所以難,不只是流程多,還因為有很多話不能亂說。
Gradient Labs 在 guardrails 文章裡把這件事講得很直白:系統不只要檢查客戶端風險,也要檢查服務端風險。比如客戶是否表現出 financial difficulty,也就是財務困難跡象;是否涉及 complaint、vulnerability 等需要特殊處理的情境;以及系統自己有沒有踩到 financial advice、法律或稅務建議、甚至 tipping off 這類禁區。
所謂 tipping off,可以把它理解成「不該提前透露的調查資訊」。例如在英國脈絡下,如果 AI 直接告訴客戶帳戶限制是因為可疑活動調查,可能就踩到不該說的邊界。這也是為什麼這類系統的重點不是把語氣調得多親切,而是它知不知道什麼時候該閉嘴、什麼時候該轉人工。
說穿了,這不是把一個很會聊天的模型塞進客服窗口而已。
這比較像是先培養出一位只負責流程型工作的初階客戶經理:他可以照表操課、可以查系統、知道哪些句子不能講;但只要碰到高風險例外、情緒安撫、模糊判斷或需要責任承擔的情境,就必須明確把案件交回給人。
服務團隊現在真正該問的,不是會不會取代人
所以,看到「每位客戶都有一個 AI 客戶經理」這種說法,最有用的反應不是興奮,也不是嘲笑,而是把問題改問得更精準。
真正該問的是:哪些流程已經標準化到足以先交給 AI?哪些流程需要大量判斷、關懷、例外授權,仍應保留給人?以及,你拿來驗收的指標,是不是已經從「回答像不像真人」換成「整段 SOP 有沒有走對、工具呼叫穩不穩、每一步有沒有 guardrails、失敗時能不能清楚升級」?
這個判斷規則不只適用在銀行。凡是高風險、跨系統、步驟不能漏的服務場景,接下來都會遇到同一題。
AI 正在變得像一位能處理程序型工作的第一線同事。這很重要。
但目前的公開證據,還沒有重要到可以宣布人類客服退場。
比較成熟的看法應該是:如果一套 AI 服務流程還不能同時做到整段 SOP 走對、系統操作可靠、合規防護明確、失敗可升級人工,那它就還不是能接手服務流的 AI 客戶經理,只是一個比較會說話的前台。對大多數團隊來說,先從這個標準看,會比追逐任何一則漂亮案例都更有用。